RCNN,Fast

您所在的位置：网站首页 › vgg16 论文 › RCNN,Fast

RCNN,Fast

2023-07-20 20:50| 来源: 网络整理| 查看: 265

什么是目标检测？

所谓目标检测就是在一张图像中找到我们关注的目标，并确定它的类别和位置，这是计算机视觉领域最核心的问题之一。由于各类目标不同的外观，颜色，大小以及在成像时光照，遮挡等具有挑战性的问题，目标检测一直处于不断的优化和研究中。

RCNN

RCNN算法流程:

1.输入一张图像（图片的大小并没有固定的要求。然而，为了方便处理和训练，通常会将输入图片调整为固定的尺寸。常见的图片大小为224x224、227x227或者299x299像素。）

2.通过selective search算法选出不同大小的Region Proposal区域。

Selective Search算法主要步骤：

1）使用一种过分割手段，将图像分割成小区域 (1k~2k 个)

2）计算所有邻近区域之间的相似性，包括颜色、纹理、尺度等

3）将相似度比较高的区域合并到一起

4）计算合并区域和临近区域的相似度

5）重复3、4过程，直到整个图片变成一个区域

3.由于输入卷积神经网络的图片大小要求相同，所以需要对Region Proposal区域做图像上的归一化（即使不同的RP，变成相同的大小）。

4.通过卷积神经网络输出向量，再通过SVM进行分类。使用回归器精细修正候选框位置。

缺点：

1.训练时间长：主要原因是分阶段多次训练，而且对于每个region proposal都要单独计算一次feature map，导致整体的时间变长。

2.占用空间大：每个region proposal的feature map都要写入硬盘中保存，以供后续的步骤使用。

3.multi-stage：文章中提出的模型包括多个模块，每个模块都是相互独立的，训练也是分开的。这会导致精度不高，因为整体没有一个训练联动性，都是不共享分割训练的，自然最重要的CNN特征提取也不会做的太好。

4.测试时间长，由于不共享计算，所以对于test image，也要为每个proposal单独计算一次feature map，因此测试时间也很长。

5.训练比较麻烦，首先需要先训练分类模型网络，进而对bounding box进行回归计算。

Fast-RCNN

Fast RCNN算法流程:

1.通过selective search算法选出不同大小的Region Proposal区域。

2.直接把整张图片输入卷积神经网络，生成特征图（卷积共享，提升速度）。

3.在这个convnet输出的feature map上通过感受野找到输入图片上对应的RoI，特征图上的区域就是输入图像上RoI的特征。

4.通过ROI Pooling（借鉴SSPNet的思想）将图片变成相同的大小。变成固定长度的全连接层输入。

5.在通过全连接层与SVM进行分类和使用回归器精细修正候选框位置。

优缺点:

（1）Fast RCNN与RCNN相比有如下优点：

1.测试时的速度得到了提升。RCNN算法与图像内的大量候选帧重叠，导致提取特征操作中的大量冗余。而Fast RCNN很好地解决了这一问题。

2.训练时的速度得到了提升。

3.训练所需的空间大。RCNN中分类器和回归器需要大量特征作为训练样本，而Fast RCNN则不再需要额外的存储。

（2）Fast RCNN仍存在的不足：

1.由于使用的Selective Search选择性搜索，这一过程十分耗费时间。

2.由于使用Selective Search来预先提取候选区域，Fast RCNN并未实现真正意义上端到端的训练模式。

Faster-RCNN

Faster RCNN算法流程:

1.将原始图片直接输入到convnet（卷积神经网络）中，生成特征图。（不再进行Selective Search算法）

2.在输出的feature map上施加一个Region Proposal Network (RPN)，用来代替之前在原始图像上的传统方法。通过RPN产生很多个候选框。然后进行Classification loss(为二分类，判断这个框是不是物体，用来过滤不要的候选框),Bounding-box regression loss(微调给定的边框，使之anchor box可以更接近gt的框。)

3.将CNN和RPN网络相加，进行ROI Pooling,最终输出分类对区域框中的图像进行分类，回归则是为了预测分类框的位置。

RPN

算法流程：

1.经过VGG或者ZFNet产生的特征图作为RPN的输入。

2.在特征图上执行3x3的滑窗操作，每个滑窗对应的区域映射为低维特征(256-d for ZF and 512-d for VGG, with ReLU following)，后接两个全连接分支：一个分类一个回归。

3.每个3x3滑窗的中心，在原始图像上对应的感受野上有k kk个anchor boxes（论文中是9个：3个尺度和对应的3个长宽比），所以每个滑窗会得到2k个分类结果和4k个回归结果。

优缺点：

优点：

准确性高：由于使用了RPN（区域提议网络）来生成候选区域，再通过RoI（感兴趣区域）池化来提取特征，因此Faster RCNN的准确性比较高。处理速度快：使用预训练的卷积神经网络（如VGG16、ResNet等）加速了训练和测试过程。

缺点：

时间复杂度高：Faster RCNN的算法流程比较复杂，训练和推理时间比较长。实际应用困难：Faster RCNN的实际应用不够方便，需要一定的研究门槛。总结

该图来源于：(4条消息) 一文详解R-CNN、Fast R-CNN、Faster_faster rcnn参数量和模型大小_Hong_Youth的博客-CSDN博客

【本文地址】

RCNN,Fast

RCNN,Fast

今日新闻

推荐新闻